嘉宾|概况_罗海伟：阿里云万亿级数据集成架构实践

作者：艾特PONYO | 来源：互联网 | 2023-08-31 18:02

篇首语：本文由编程笔记#小编为大家整理，主要介绍了罗海伟：阿里云万亿级数据集成架构实践相关的知识，希望对你有一定的参考价值。

Distribute模式

On Hadoop模式

第三个模式是On Hadoop模式，也是商业化版本的一个能力。当用户已经拥有一个Hadoop执行集群，我们可以将DataX数据传输作业部署在已有的Hadoop集群里面，Hadoop中常见的编程模型是MapReduce，我们可以将DataX拆分的task寄宿在mapper节点和reducer节点中，通过Yarn进行统一调度和管理，通过这种方式我们可以复用已有的Hadoop计算和执行能力。这种模式和开源的Sqoop框架是有一点类似的。

2. 实时同步CheckPoint机制

下面介绍阿里云数据集成DataX关于实时同步的checkpoint机制。checkpoint机制可以保证实时数据传输的稳定和断点续传的能力。

如果你对Flink特别了解的话，这张图会非常熟悉。Flink是阿里团队开源出去的另外一个非常重要的实时计算引擎，DataX框架也借助了Flink的checkpoint机制，比如Flink会定期发送一些barrier事件和消息。我们的Reader Task其实是source，收到barrier以后，会产生snapShotState，并且barrier会传递到Transformer Task，Transformer Task可以用来做数据的转换，Transformer Task收到barrier以后，barrier进一步传递到Writer Task，这个时候的Writer Task其实就是sink，收到barrier之后，会再做一次snapShotState，Writer Task会将我们的数据flush到目标储存。我们会跟踪barrier进度情况，并且根据barrier进度情况，把数据流消费的点位cache缓存下来，并且可以进行持久化存储。当任务出现异常或者进程退出的时候，我们可以继续从上一个cache点继续消费数据，可以保证数据不会被丢弃，不过数据可能会有部分的重复，一般后序的计算引擎可以处理这种情况（幂等写出，最终一致）。

阿里云数据集成数据同步-核心亮点

1. 阿里云数据集成离线同步-核心亮点
概况一下阿里云数据集成离线同步的核心亮点。主要分为以下四个部分：
第一部分是支持多种类的数据源，DataX支持50+常见数据源，涵盖各种关系型数据库、文件系统、大数据系统、消息系统；
第二部分是解决方案系统，我们为一些数据传输经典问题准备了对应的解决方案，比如支持全量和增量的数据同步，支持整库、批量数据同步、支持分库分表，我们将这些琐碎的功能整合成了产品化的解决方案，直接通过界面操作即可完整复杂的数据传输过程；
第三部分是精细化权限管控能力，可以对数据源权限进行安全控制，并且隔离开发和生产环境；
第四部分DataX支持复杂调度，数据集成与DataWorks深度融合，利用DataWorks强大的调度能力调度我们的数据传输任务。

2. 阿里云数据集成实时同步-核心亮点

再概况下阿里云数据集成实时同步的核心亮点。

DataX是借助插件化机制，对新的数据源支持扩展能力强。

DataX支持丰富多样的数据源，支持星型链路组合，任何一种输入源都可以和任何一种输出源搭配组成同步链路。

DataX支持断点续传，可以实时读取mysql、Oracle、SQLSever、OceanBase、Kafka、LogHub、DataHub、PolarDB等的数据，可以将数据实时写入到MaxCompute、Hologres、Datahub、Kafka、ElasticSearch等储存系统。

DataX天然具有云原生基因，和阿里云产品融合度非常高。

DataX可以轻松监控运维告警，提供运维大盘、监控报警、FailOver等运维能力，可以监控业务延迟、Failover、脏数据、心跳检查、失败信息，并且支持邮件、电话、钉钉告警通知。

DataX支持一站式解决方案，支持常见数据源整库全增量到MaxCompute、Hologres、ElasticSearch、DataHub等，同时能够满足分库分表，单表、整库多表、DDL消息等复杂场景。

阿里云数据集成解决方案系统

1. 离线数仓-整库迁移方案
下面将详细介绍一下阿里云数据集成解决方案系统，首先是离线数仓的整库迁移解决方案，我们将数据集成中的一些典型场景，抽象为数据产品解决方案，可以帮助提升用户效率，降低用户使用成本。上图展示出源头数据库中所有的表列表，直接选中需要的表，选择对应的同步方式，比如每日增量或者每日全量，选择分批上传或者整批上传的同步并发配置，就可以上传到MaxCompute中，这种可视化操作可以满足大多离线数据迁移场景。

2. 实时数仓-全增量解决方案

实时数仓的全增量解决方案，可以非常方便的将现有数据库通过简单的配置后，完成存量的全量迁移，以及后续增量的实时同步。支持在目标库中建表、自动建立离线同步任务、自动建立实时任务、自动启动离线任务、自动启动实时任务、自动建立和启动增量和全量的融合任务、全流程的监控和展示，支持子步骤异常重试。通过这种方案，可以让用户不用关注每个全量任务和实时任务的琐碎配置细节。通过这一套解决方案，可以完成整个数据的全量、增量实时数据的同步。

阿里云DataWorks和数据集成的关系

前面介绍了阿里云数据集成开源和商业架构和能力，接下来介绍一下阿里云DataWorks和数据集成的关系。DataWorks是阿里云提供的一站式开发、数据治理的平台，融合了阿里云、阿里集团12年之久的数据中台、数据治理的实践经验。数据集成是阿里云DataWorks核心的一部分，DataWorks向下支持各种不同的计算和存储引擎，比如阿里大数据计算服务MaxCompute、开源大数据计算平台E-MapReduce、实时计算Realtime Compute、图计算引擎GraphCompute、交互式分析引擎MC-Hologres等，以及支持OSS、HDFS、DB等各种存储引擎。这些不同的计算存储引擎可以被阿里云DataWorks统一管理使用，后面可以基于这些引擎去做整个数据仓库。

DataWorks内部划分为7个模块，最下面是数据集成，可以完成各种模式的数据同步。数据集成之上，是元数据中心，提供统一的元数据服务。任务调度中心可以执行任务调度服务，数据开发方面，不同的存储引擎，比如实时计算和离线计算，其有着不同的开发模式，DataWorks支持离线开发和实时开发。同时DataWorks拥有一套综合数据治理的解决方案，会有一个数据服务模块，统一向上提供数据服务，对接各种数据应用。最后将DataWorks各种能力统一通过OpenAPI对外提供服务。

数据集成模块是可以单独对用户提供服务，单独使用的，并不需要了解和掌握所有DataWorks模块就可以将数据同步作业配置和运行起来。

智能实时数仓解决方案示例

下面介绍一个智能实时数仓解决方案实例，可以应用在电商、游戏、社交等大数据实时场景中。数据源有结构化数据和非结构化数据，非结构化数据可以通过DataHub数据总线做实时数据采集，之后借助数据集成来实时写到Hologres中做交互式分析，也可以将数据实时写入到MaxCompute中，进行归档和离线数据计算，另外Flink也可以消费订阅数据，做实时数据计算。Flink计算结果同时又可以写入Hologres中，也可以将实时计算结果做实时大屏和实时预警。结构化数据也可以通过实时数据抽取或者批量数据采集方式，统一采集到DataWorks，实时数据可以写入到Hologres或者定期归档到MaxCompute，离线数据可以通过批量数据加工到MaxCompute中来，另外MaxCompute和Hologres可以结合使用，进行实时联邦查询。

上面这套解决方案可以将阿里云实时数仓全套链路与离线数据无缝衔接，满足一套存储、两种计算（实时计算和离线计算）的高性价比组合。

今天的分享就到这里，谢谢大家。

在文末分享、点赞、在看，给个3连击呗~

分享嘉宾：

电子书下载

《大数据典藏版合集》电子书目录如上，感兴趣的小伙伴，欢迎识别二维码，添加小助手微信，回复『大数据典藏版合集』，即可下载。

关于我们：

DataFun：专注于大数据、人工智能技术应用的分享与交流。发起于2017年，在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会，已邀请近1000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章500+，百万+阅读，12万+精准粉丝。

推荐阅读

cache
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
runtime
初探Hadoop：第一章概览

本文深入探讨了《Hadoop》第一章的内容，重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]

蜡笔小新 2024-11-24 11:40:47
runtime
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
runtime
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
string
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
string
Hadoop之HDFS的概念理解

HDFS是什么？HDFS全称HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]

蜡笔小新 2024-10-12 10:52:32
string
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
string
Hadoop 架构详解：核心组件解析

本文介绍了Hadoop的核心组件，包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]

蜡笔小新 2024-11-16 12:13:59
string
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
future
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
shell
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
default
hadoop3.1.2 first programdefault wordcount (Mac)

hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]

蜡笔小新 2024-10-15 11:11:55
default
Hadoop——实验七：MapReduce编程实践

文章目录一.实验目的二.实验内容三.实验步骤及结果分析 1.基于ubuntukylin14.04(7)版本，安装hadoop-eclipse-kepler-plugi ... [详细]

蜡笔小新 2024-10-14 18:07:40
default
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35

艾特PONYO

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章